Model booleà
El model booleà de recuperació d'informació (MBRI) és un model de recuperació d'informació clàssic (RI) i, alhora, el primer i més adoptat. És un model utilitzat per molts sistemes de recuperació d'informació d'avui dia.[1]
Definicions
[modifica]La recuperació d'informació es basa en la lògica Booleana i en la teoria de conjunt clàssica en el qual tant els documents que s'han buscat com la consulta de l'usuari es conceben com a conjunts de termes. La recuperació es basa en si els documents contenen els termes de la consulta o no. Donat un conjunt finit
- T = {t1, t2, ..., tj, ..., tm}
d'elements anomenats termes d'índex (per exemple paraules o expressions -que poden ser reduïts a la paraula arrel- que descriuen o caracteritzen documents com ara paraules clau donades per a un article de revista), un conjunt finit
- D = {D1, ..., Di, ..., Dn}, on Di és un element del conjunt de les parts de T
dels elements anomenats documents. Donat una expressió Booleana -en una forma normal- Q fa una consulta de la manera següent:
- Q = (Wi O Wk O ...) I ... I (Wj O Ws O ...),
- Amb Wi=ti, Wk=tk, Wj=tj, Ws=ts, o Wi=NO ti, Wk=NO tk, Wj=NO tj, Ws=NO ts
On ti significa que el terme ti és present dins el document Di, mentre que NO ti significa que no hi és.
De manera equivalent, Q pot ser donat en una forma normal disjuntiva, també. Una operació de recuperació, consistent en dos passos, és definida de la manera següent:
- 1. Els conjunts Sj dels documents són obtinguts perquè contenen o no el terme tj (depenent de si Wj=tj o Wj=NO tj) :
- Sj = {Di|Wj Element de Di}
- 2. Aquells documents són recuperats dins la resposta a Q que són el resultat de les operacions de conjunts corresponents, per exemple la resposta a Q seria de la següent manera:
- UNIÓ (INTERSECCIÓ Sj)
Exemple
[modifica]El conjunt de documents de l'original (real), per exemple
O = {O1, O2, O3}
on
O1 = Principi de Bayes: el principi que, calculant un paràmetre, inicialment hauria d'assumir que cada valor possible té probabilitat igual (una distribució prèvia uniforme).
O2 = Teoria de la Decisió Bayesiana: una teoria matemàtica de la presa de decisions que suposa funcions d'utilitat i de probabilitat, i segons la qual l'acte de ser elegit és l'acte de Bayes, és a dir, el de més utilitat esperada subjectivament. Si un tingués temps il·limitat i la potència de càlcul amb la qual prendre cada decisió, aquest procediment seria la millor manera de prendre-la.
O3 = Epistemology bayesiana: una teoria filosòfica que sosté que l'estat epistèmic d'una proposició (és a dir com de bé provada o ben establerta que és) es mesura millor per una probabilitat i que la forma correcta de revisar aquesta probabilitat ve donada pel condicionament bayesià o procediments similars. Un epistemòleg bayesià faria servir la probabilitat per definir, i per explorar la relació entre, conceptes com ara l'estat epistèmic, suport o poder explicatiu.
Deixeu que el conjunt T de termes sigui:
T = {t1 = Principi de Bayes', t2 = probabilitat, t3 = presa de decisió, t4 = epistemologia bayesiana}
Llavors, el conjunt D dels documents queda de la següent manera:
D = {D1, D2, D3}
on
D1 = {Principi de Bayes, probabilitat}
D2 = {probabilitat, presa de decisió}
D3 = {probabilitat, epistemologia bayesiana}
Deixeu que la consulta Q sigui:
Q = probabilitat I presa de decisió
1. En primer lloc, els conjunts següents S1 i S2 de documents Di són obtinguts (recuperats):
S1 = {D1, D2, D3}
S2 = {D2}
2. Finalment, els documents següents Di són recuperats dins la resposta de Q: {D1, D2, D3} INTERSECCIÓ {D2} = {D2}
Això significa que el document original O2 (corresponent a D2) és la resposta a Q.
Evidentment, si hi ha més d'un document amb la mateixa representació, cada document serà recuperat. Aquests documents són, en el RIB (recuperació d'informació booleana), indistingibles (o, en altres paraules, equivalents).
Avantatges
[modifica]- Formalisme net
- Fàcil d'implementar
- Concepte intuïtiu
Desavantatges
[modifica]- Algoritmes de patrons de text, poden recuperar o pocs documents o massa documents
- Difícil de traduir una consulta a una expressió Booleana
- Tots els termes són ponderats de la mateixa manera
- Serveix més com a recuperació de dades que com a recuperació d'informació
Estructures de dades i algoritmes
[modifica]Des d'un punt de vista matemàtic formal pur, el MBRI és senzill. Des d'un punt de vista pràctic, tanmateix, s'han de resoldre diversos problemes addicionals que es relacionen amb els algoritmes i les estructures de dades, com ara, per exemple, l'elecció dels termes (selecció manual o automàtica o tots dos), stemming, taules de valors, fitxers d'arxiu invertits, etc.[2]
Conjunts de valors
[modifica]Una altra possibilitat és per utilitzar taules de valors. Cada document és representat per una taula que conté cada terme sol d'aquell document. Des que la mida de la taula de valors augmenta i disminueix en temps real amb l'addició i eliminació de termes, cada document ocuparà molt menys espai a la memòria. No obstant això, tindrà una desacceleració en el rendiment, ja que les operacions són més complexes que amb vectors de bits. En el pitjor dels casos el rendiments es pot degradar d'O (n) a O (n 2). En el cas intermedi, l'alentiment del rendiment no serà molt pitjor que en els vectors de bits i l'ús d'espai és molt més eficient.
Referències
[modifica]- ↑ Lancaster, F. W.; Fayen, E. G.. Information Retrieval On-Line (en anglès). Los Angeles, Calfornia: Melville Publishing Co., 1973.
- ↑ Wartik, Steven. «Boolean operations». A: Information Retrieval Data Structures & Algorithms (en anglès). Prentice Hall, Inc., 1992. ISBN 0-13-463837-9.
Bibliografia
[modifica]- Lashkari, Un.H.; Mahdavi, F.; Ghomi, V. (2009), Lashkari, A.H.; Mahdavi, F. & Ghomi, V. (2009), A Boolean Model in Information Retrieval for Search Engines, DOI 10.1109/ICIME.2009.101, doi:10.1109/ICIME.2009.101